はじめて、R の etatapi を使って、e-Stat
のデータを取得する方法を簡単に説明します。
パッケージの、estatapi が、e-Stat
のデータを取得するためのものです。tidyverse
は基本的な解析をおこなうため、showtext と
showtext_auto()
は、グラフなどに、日本語が含まれる場合の文字化けを防ぐためのものです。
インストールされていないパッケージがありましたら、上のメニューの Tools > Install Packages から、インストールしてください。
library(tidyverse)
library(showtext)
library(estatapi)
showtext_auto()
e-Stat API を利用するには、appId が必要です。
appId <- " " # 私のものは、英数40文字
以下の形式でデータを取得する。appID は上で指定したもの。appId の場所を、実際のもので置き換えても良いが、人に見せるものではないので、appId として、置き換えておくのがよいだろう。
必要なのは、statsDataId で、すべてのデータにこの ID が振られているわけではない。データをしらべて、API の表示があるものは、それを開くと、途中に、
statsDataId=0003009189
などの部分があるので、この10桁の番号をコピーして貼り付ける。8桁の「政府統計コード」ではないので、混乱しないこと。
statsDataId
取得については、最後の「参考」に少し書いてあります。
ダウンロードしたデータをあとで使うために名前を設定する。
data0 <- estat_getStatsData(appId, statsDataId = "1234567890"
)
data0
メタ・データは、同じように、estat_getMetaInfo
で得られる。
data0m <- estat_getMetaInfo(appId, statsDataId = "1234567890")
data0m
df1 <- estat_getStatsData(appId,statsDataId = "0000010103")
Fetching record 1-100000... (total: 319920 records)
Fetching record 100001-200000... (total: 319920 records)
Fetching record 200001-300000... (total: 319920 records)
Fetching record 300001-319920... (total: 319920 records)
df1
glimpse(df1)
Rows: 319,920
Columns: 11
$ tab_code <chr> "00001", "00001", "00001", "00001", "00001…
$ 観測値 <chr> "観測値", "観測値", "観測値", "観測値", "…
$ cat01_code <chr> "C1101", "C1101", "C1101", "C1101", "C1101…
$ `C 経済基盤` <chr> "C1101_県内総生産額(平成17年基準)", "C11…
$ area_code <chr> "00000", "00000", "00000", "00000", "00000…
$ 地域 <chr> "全国", "全国", "全国", "全国", "全国", "…
$ time_code <chr> "2001100000", "2002100000", "2003100000", …
$ 調査年 <chr> "2001年度", "2002年度", "2003年度", "2004…
$ unit <chr> "百万円", "百万円", "百万円", "百万円", "…
$ value <dbl> 520999398, 516047976, 516778382, 523329043…
$ annotation <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
df1m <- estat_getMetaInfo(appId, statsDataId = "0000010103")
glimpse(df1m)
List of 5
$ tab : tibble [1 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr "00001"
..$ @name : chr "観測値"
..$ @level: chr "1"
$ cat01 : tibble [502 × 4] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:502] "C1101" "C1102" "C110201" "C110202" ...
..$ @name : chr [1:502] "C1101_県内総生産額(平成17年基準)" "C1102_県内総生産額(産業)(平成17年基準)" "C110201_県内総生産額(農林水産業)(平成17年基準)" "C110202_県内総生産額(農業)(平成17年基準)" ...
..$ @level: chr [1:502] "1" "1" "1" "1" ...
..$ @unit : chr [1:502] "百万円" "百万円" "百万円" "百万円" ...
$ area : tibble [48 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:48] "00000" "01000" "02000" "03000" ...
..$ @name : chr [1:48] "全国" "北海道" "青森県" "岩手県" ...
..$ @level: chr [1:48] "1" "2" "2" "2" ...
$ time : tibble [47 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:47] "1975100000" "1976100000" "1977100000" "1978100000" ...
..$ @name : chr [1:47] "1975年度" "1976年度" "1977年度" "1978年度" ...
..$ @level: chr [1:47] "1" "1" "1" "1" ...
$ .names: tibble [4 × 2] (S3: tbl_df/tbl/data.frame)
..$ id : chr [1:4] "tab" "cat01" "area" "time"
..$ name: chr [1:4] "観測値" "C 経済基盤" "地域" "調査年"
df1m$tab
コード(cat01_code)によって、各データが分類されている。
df1m$cat01
df1m$area
df1m$time
df1m$.names
df1 %>% filter(cat01_code %in% c('C1101', 'C1102')) %>%
filter(地域 == "全国") %>%
ggplot(aes(調査年, value, color = cat01_code)) + geom_point()
調査年が文字データなので、数値の連続データとして、折れ線グラフには描けません。一旦、数値データにして、それから、ラベルだけ書き換える必要があります。まず、数値データにするため、調査年の最初の四つの数字を取り出します。
df1 %>% filter(cat01_code %in% c('C1101', 'C1102')) %>%
filter(地域 == "全国") %>% mutate(year = as.numeric(stringr::str_sub(調査年, 1L, 4L))) %>%
select(cat01_code, year, value)
df1 %>% filter(cat01_code %in% c('C1101', 'C1102')) %>%
filter(地域 == "全国") %>% mutate(year = as.numeric(stringr::str_sub(調査年, 1L, 4L))) %>%
ggplot(aes(year, value, color = cat01_code)) + geom_line() +
labs(title = "C1101_県内総生産額(平成17年基準), C1102_県内総生産額(産業)(平成17年基準)", x = "", y = "", color = "") + scale_x_continuous(breaks = seq(1975,2021,2), labels = paste0(seq(1975,2021,2),"年度"))
df2 <- estat_getStatsData(appId, statsDataId = "0003448228")
Fetching record 1-2244... (total: 2244 records)
df2
df2m <- estat_getMetaInfo(appId, statsDataId = "0003448228")
glimpse(df2m)
List of 6
$ cat01 : tibble [4 × 4] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:4] "001" "002" "003" "004"
..$ @name : chr [1:4] "男女計" "男" "女" "人口性比"
..$ @level: chr [1:4] "1" "1" "1" "1"
..$ @unit : chr [1:4] "千人" "千人" "千人" "女性=100"
$ cat02 : tibble [2 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:2] "001" "002"
..$ @name : chr [1:2] "総人口" "日本人人口"
..$ @level: chr [1:2] "1" "1"
$ cat03 : tibble [102 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:102] "01000" "01001" "01002" "01003" ...
..$ @name : chr [1:102] "総数" "0歳" "1歳" "2歳" ...
..$ @level: chr [1:102] "1" "1" "1" "1" ...
$ area : tibble [1 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr "00000"
..$ @name : chr "全国"
..$ @level: chr "1"
$ time : tibble [3 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:3] "1601" "1301" "1701"
..$ @name : chr [1:3] "2020年10月1日現在" "2021年10月1日現在" "2022年10月1日現在"
..$ @level: chr [1:3] "1" "1" "1"
$ .names: tibble [5 × 2] (S3: tbl_df/tbl/data.frame)
..$ id : chr [1:5] "cat01" "cat02" "cat03" "area" ...
..$ name: chr [1:5] "男女別・性比" "人口" "年齢各歳" "全国" ...
df3 <- estat_getStatsData(appId, statsDataId = "0003009189")
Fetching record 1-360... (total: 360 records)
df3
df3m <- estat_getMetaInfo(appId, statsDataId = "0003009189")
glimpse(df3m)
List of 7
$ tab : tibble [1 × 4] (S3: tbl_df/tbl/data.frame)
..$ @code : chr "01"
..$ @name : chr "実数(人口)"
..$ @level: chr ""
..$ @unit : chr "万人"
$ cat01 : tibble [1 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr "000"
..$ @name : chr "全産業"
..$ @level: chr "1"
$ cat02 : tibble [5 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:5] "00" "01" "02" "08" ...
..$ @name : chr [1:5] "15歳以上人口" "労働力人口" "就業者" "完全失業者" ...
..$ @level: chr [1:5] "1" "1" "1" "1" ...
$ cat03 : tibble [3 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:3] "0" "1" "2"
..$ @name : chr [1:3] "総数" "男" "女"
..$ @level: chr [1:3] "1" "1" "1"
$ area : tibble [1 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr "00000"
..$ @name : chr "全国"
..$ @level: chr "1"
$ time : tibble [24 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:24] "1999100000" "2000100000" "2001100000" "2002100000" ...
..$ @name : chr [1:24] "1999年度" "2000年度" "2001年度" "2002年度" ...
..$ @level: chr [1:24] "1" "1" "1" "1" ...
$ .names: tibble [6 × 2] (S3: tbl_df/tbl/data.frame)
..$ id : chr [1:6] "tab" "cat01" "cat02" "cat03" ...
..$ name: chr [1:6] "表章項目" "産業" "就業状態" "性別" ...
df3m$cat02
df3e <- estat_getStatsData(appId, statsDataId = "0003445078", lang = "E")
Fetching record 1-12258... (total: 12258 records)
df3e
estat_getStatsList(appId = appId, lang = "E",
searchWord = "Population",
.use_label = FALSE)
estat_getStatsList(appId = appId, lang = "E",
searchWord = "Unemployed",
.use_label = FALSE)
df4e <- estat_getStatsData(appId, statsDataId = "0003445099", lang = "E")
Fetching record 1-36774... (total: 36774 records)
df4e
API URL の構造を理解する。
Rからe-Stat APIを使う: https://qiita.com/nozma/items/f88f5cc60ab63461deae
library(httr)
# アプリケーション ID を指定します。
appid <- appId # "あなたのアプリケーション ID"
# 統計表 ID を指定します。
statsDataId <- "0003445078"
# データを取得します。
response <- GET(url = "http://api.e-stat.go.jp/rest/3.0/app/getSimpleStatsData",
query = list(appId = appid,
statsDataId = statsDataId,
metaGetFlg = "Y",
cntGetFlg = "N",
explanationGetFlg = "Y",
annotationGetFlg = "Y",
sectionHeaderFlg = "1",
replaceSpChars = "0"))
glimpse(response)
List of 10
$ url : chr "http://api.e-stat.go.jp/rest/3.0/app/getSimpleStatsData?appId=3b6fdab24adcaa824f5a62db1b6858e14f6896a8&statsDat"| __truncated__
$ status_code: int 200
$ headers :List of 15
..$ content-type : chr "text/plain; charset=utf-8"
..$ transfer-encoding : chr "chunked"
..$ connection : chr "keep-alive"
..$ x-frame-options : chr "SAMEORIGIN"
..$ date : chr "Sun, 28 May 2023 12:29:11 GMT"
..$ x-xss-protection : chr "1; mode=block"
..$ content-encoding : chr "gzip"
..$ x-zen-fury : chr "5b53d3dda716a328fa70bbc32f004b4e9410d112"
..$ vary : chr "Accept-Encoding"
..$ x-content-type-options : chr "nosniff"
..$ x-cache-status : chr "NOTCACHED"
..$ cache-control : chr "no-store"
..$ server : chr "ZENEDGE"
..$ strict-transport-security: chr "max-age=0"
..$ x-cdn : chr "Served-By-Zenedge"
..- attr(*, "class")= chr [1:2] "insensitive" "list"
$ all_headers:List of 1
..$ :List of 3
.. ..$ status : int 200
.. ..$ version: chr "HTTP/1.1"
.. ..$ headers:List of 15
.. .. ..- attr(*, "class")= chr [1:2] "insensitive" "list"
$ cookies :'data.frame': 2 obs. of 7 variables:
..$ domain : chr [1:2] "#HttpOnly_api.e-stat.go.jp" "api.e-stat.go.jp"
..$ flag : logi [1:2] FALSE FALSE
..$ path : chr [1:2] "/" "/"
..$ secure : logi [1:2] FALSE FALSE
..$ expiration: POSIXct[1:2], format: "Inf" ...
..$ name : chr [1:2] "X-Oracle-BMC-LBS-Route" "TS0187ce26"
..$ value : chr [1:2] "01fb9bad51d8aed258491a35c882b4b7d25b695d" "01c3c9b3a91d864367e153bdfeccc46c46ac2c307f56c254a7f34a948cfe2b6421d6a0a2d84780be9755427bd031cee451c862208bfa203"| __truncated__
$ content : raw [1:1186538] 22 52 45 53 ...
$ date : POSIXct[1:1], format: "2023-05-28 12:29:11"
$ times : Named num [1:6] 0 0.00002 0 0.000071 0.76822 ...
..- attr(*, "names")= chr [1:6] "redirect" "namelookup" "connect" "pretransfer" ...
$ request :List of 7
..$ method : chr "GET"
..$ url : chr "http://api.e-stat.go.jp/rest/3.0/app/getSimpleStatsData?appId=3b6fdab24adcaa824f5a62db1b6858e14f6896a8&statsDat"| __truncated__
..$ headers : Named chr "application/json, text/xml, application/xml, */*"
.. ..- attr(*, "names")= chr "Accept"
..$ fields : NULL
..$ options :List of 2
.. ..$ useragent: chr "libcurl/7.88.1 r-curl/5.0.0 httr/1.4.6"
.. ..$ httpget : logi TRUE
..$ auth_token: NULL
..$ output : list()
.. ..- attr(*, "class")= chr [1:2] "write_memory" "write_function"
..- attr(*, "class")= chr "request"
$ handle :Class 'curl_handle' <externalptr>
- attr(*, "class")= chr "response"
estatapietatapi home: https://CRAN.R-project.org/package=estatapiGitHubPages の内容をまずは、確認します。
estat_getStatsList())appId <- " " # 私のものは、英数
estat_getStatsList(appId = appId, searchWord = "チョコレート")
ここで、STAT_NAMEやGOV_ORGは人間が読みやすい形式のラベルになっていますが、 プログラム中で扱う場合はコードのままの方が都合がいいこともあります。そのときは.use_label = FALSEを指定してください。
estat_getStatsList(appId = appId,
searchWord = "チョコレート",
.use_label = FALSE)
estat_getMetaInfo())統計データのメタ情報を取得します。この関数は、結果をlistとして返します。listの各要素が、それぞれのデータ項目についてのメタ情報を含んだtbl_dfになっています。
例えば、0003103532というIDの統計に関するメタ情報を取得するには、statsDataIdという引数にIDを指定して、以下のようにします。
meta_info <- estat_getMetaInfo(appId = appId, statsDataId = "0003103532")
names(meta_info)
[1] "tab" "cat01" "cat02" "area" "time" ".names"
meta_info$cat01
estat_getStatsData())estat_getStatsData(
appId = appId,
statsDataId = "0003103532",
cdCat01 = c("010800130","010800140")
)
Fetching record 1-17792... (total: 17792 records)
limitで取得する最大のレコード数を、startPositionで取得を始めるレコードの位置を指定することもできます。とりあえず少しだけ抜き出して見たい場合や、少しずつデータを取ってきたい場合にはこれらのパラメータが便利です。
estat_getStatsData(
appId = appId, statsDataId = "0003103532", cdCat01 = c("010800130","010800140"),
limit = 3
)
Fetching record 1-3... (total: 17792 records)
estat_getStatsData(
appId = appId, statsDataId = "0003103532", cdCat01 = c("010800130","010800140"),
startPosition = 101,
limit = 3
)
Fetching record 101-103... (total: 17792 records)
estat_getDataCatalog())統計表ファイル(Excel、CSV、PDF)および統計データベースの情報を取得できます。
このAPIはファイルのURLを返すだけなので、そのままRで処理することは難しいかもしれません。
catalog1 <- estat_getDataCatalog(appId = appId, searchWord = "チョコレート", dataType = c("PDF", "XLS"))
catalog1[1, c("@id", "STAT_NAME", "TABLE_NAME", "SURVEY_DATE", "TABLE_SUB_CATEGORY1", "DATASET_NAME", "NAME", "LANDING_PAGE", "URL", "FORMAT")] %>%
glimpse
2016.5.27 更新の記事:https://qiita.com/kazutan/items/9c0b2dd0f055fde45cda
social_life_stat <- estat_getStatsList(appId = appId, searchWord = "社会生活基本調査")
glimpse(social_life_stat)
Rows: 11,184
Columns: 22
$ `@id` <chr> "0003005834", "0003005836", "000…
$ STAT_NAME <chr> "社会生活基本調査", "社会生活基…
$ GOV_ORG <chr> "総務省", "総務省", "総務省", "…
$ STATISTICS_NAME <chr> "平成18年社会生活基本調査 調査票…
$ TITLE <chr> "男女,行動の種類(小分類,主行…
$ CYCLE <chr> "-", "-", "-", "-", "-", "-", "-…
$ SURVEY_DATE <chr> "200610", "200610", "200610", "2…
$ OPEN_DATE <chr> "2016-10-31", "2016-10-31", "201…
$ SMALL_AREA <chr> "0", "0", "0", "0", "0", "0", "0…
$ COLLECT_AREA <chr> "該当なし", "該当なし", "該当な…
$ MAIN_CATEGORY <chr> "教育・文化・スポーツ・生活", "…
$ SUB_CATEGORY <chr> "文化・スポーツ・生活", "文化・…
$ OVERALL_TOTAL_NUMBER <chr> "39675", "39675", "39675", "4320…
$ UPDATED_DATE <chr> "2022-08-17", "2022-08-17", "202…
$ TABULATION_CATEGORY <chr> "平成18年社会生活基本調査", "平…
$ TABULATION_SUB_CATEGORY1 <chr> "調査票Bに基づく結果", "調査票…
$ TABULATION_SUB_CATEGORY2 <chr> "生活時間に関する結果", "生活時…
$ TABULATION_SUB_CATEGORY3 <chr> "生活時間編", "生活時間編", "生…
$ DESCRIPTION <chr> "", "", "", "", "", "", "", "", …
$ TABLE_NAME <chr> "男女,行動の種類(小分類,主行…
$ TABULATION_SUB_CATEGORY4 <chr> NA, NA, NA, NA, NA, NA, NA, NA, …
$ TABLE_SUB_CATEGORY1 <chr> NA, NA, NA, NA, NA, NA, NA, NA, …
stats_list_eg1 <- estat_getStatsList(appId = appId, searchWord = "", statsCode = "00450012")
glimpse(stats_list_eg1)
Rows: 2
Columns: 18
$ `@id` <chr> "0003109570", "0003109558"
$ STAT_NAME <chr> "生命表", "生命表"
$ GOV_ORG <chr> "厚生労働省", "厚生労働省"
$ STATISTICS_NAME <chr> "生命表 完全生命表", "生命表 簡…
$ TITLE <chr> "完全生命表", "簡易生命表"
$ CYCLE <chr> "-", "年次"
$ SURVEY_DATE <chr> "0", "0"
$ OPEN_DATE <chr> "2019-08-30", "2020-07-31"
$ SMALL_AREA <chr> "0", "0"
$ COLLECT_AREA <chr> "該当なし", "該当なし"
$ MAIN_CATEGORY <chr> "人口・世帯", "人口・世帯"
$ SUB_CATEGORY <chr> "人口動態", "人口動態"
$ OVERALL_TOTAL_NUMBER <chr> "5840", "17784"
$ UPDATED_DATE <chr> "2020-10-22", "2020-10-22"
$ TABULATION_CATEGORY <chr> "生命表", "生命表"
$ TABULATION_SUB_CATEGORY1 <chr> "完全生命表", "簡易生命表"
$ DESCRIPTION <chr> "", ""
$ TABLE_NAME <chr> "完全生命表", "簡易生命表"
meta_info <- estat_getMetaInfo(appId = appId, statsDataId = "0003066844")
names(meta_info)
[1] "cat01" "cat02" "cat03" "cat04" "area" "time" ".names"
df1 <- estat_getStatsData(
appId = appId,
statsDataId = "0003066844",
cdCat01 = "002",
cdArea = "00000")
Fetching record 1-882... (total: 882 records)
glimpse(df1)
Rows: 882
Columns: 15
$ cat01_code <chr> "002", "002", "002", "002", "00…
$ 行動の種類_2011 <chr> "睡眠", "睡眠", "睡眠", "睡眠",…
$ cat02_code <chr> "001", "001", "001", "001", "00…
$ `性別-2011` <chr> "総数", "総数", "総数", "総数",…
$ cat03_code <chr> "001", "001", "001", "099", "09…
$ `時間帯別行動者率等-2011` <chr> "標本数", "標本数", "標本数", "…
$ cat04_code <chr> "00100", "00200", "00300", "001…
$ `曜日-2011` <chr> "平日", "土曜日", "日曜日", "平…
$ area_code <chr> "00000", "00000", "00000", "000…
$ `地域 _ 2011` <chr> "全国", "全国", "全国", "全国",…
$ time_code <chr> "2011000000", "2011000000", "20…
$ `時間軸(年次)` <chr> "2011年", "2011年", "2011年", "…
$ unit <chr> NA, NA, NA, "千人", "千人", "千…
$ value <dbl> NA, NA, NA, NA, NA, NA, 82.93, …
$ annotation <chr> NA, NA, NA, NA, NA, NA, NA, NA,…
knitr::kable(head(df1,9))
| cat01_code | 行動の種類_2011 | cat02_code | 性別-2011 | cat03_code | 時間帯別行動者率等-2011 | cat04_code | 曜日-2011 | area_code | 地域 _ 2011 | time_code | 時間軸(年次) | unit | value | annotation |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 002 | 睡眠 | 001 | 総数 | 001 | 標本数 | 00100 | 平日 | 00000 | 全国 | 2011000000 | 2011年 | NA | NA | NA |
| 002 | 睡眠 | 001 | 総数 | 001 | 標本数 | 00200 | 土曜日 | 00000 | 全国 | 2011000000 | 2011年 | NA | NA | NA |
| 002 | 睡眠 | 001 | 総数 | 001 | 標本数 | 00300 | 日曜日 | 00000 | 全国 | 2011000000 | 2011年 | NA | NA | NA |
| 002 | 睡眠 | 001 | 総数 | 099 | 10歳以上推定人口 | 00100 | 平日 | 00000 | 全国 | 2011000000 | 2011年 | 千人 | NA | NA |
| 002 | 睡眠 | 001 | 総数 | 099 | 10歳以上推定人口 | 00200 | 土曜日 | 00000 | 全国 | 2011000000 | 2011年 | 千人 | NA | NA |
| 002 | 睡眠 | 001 | 総数 | 099 | 10歳以上推定人口 | 00300 | 日曜日 | 00000 | 全国 | 2011000000 | 2011年 | 千人 | NA | NA |
| 002 | 睡眠 | 001 | 総数 | 003 | 行動者率(0:00-0:15) | 00100 | 平日 | 00000 | 全国 | 2011000000 | 2011年 | % | 82.93 | NA |
| 002 | 睡眠 | 001 | 総数 | 003 | 行動者率(0:00-0:15) | 00200 | 土曜日 | 00000 | 全国 | 2011000000 | 2011年 | % | 82.12 | NA |
| 002 | 睡眠 | 001 | 総数 | 003 | 行動者率(0:00-0:15) | 00300 | 日曜日 | 00000 | 全国 | 2011000000 | 2011年 | % | 80.86 | NA |
Update: 2020.12.6 https://ronri-rukeichi.hatenablog.com/entry/2020/12/06/230445
res1 <- estat_getStatsList(appId = appId, searchWord = "産業 AND 年齢", surveyYears = "199001-199512",statsCode= "00200" ,limit=100, statsField = "03")
glimpse(res1)
Rows: 13
Columns: 18
$ `@id` <chr> "0000140293", "0000140562", "000…
$ STAT_NAME <chr> "就業構造基本調査", "就業構造基…
$ GOV_ORG <chr> "総務省", "総務省", "総務省", "…
$ STATISTICS_NAME <chr> "平成4年就業構造基本調査 全国編"…
$ TITLE <chr> "従業上の地位(2),産業(35…
$ CYCLE <chr> "-", "-", "-", "-", "-", "-", "-…
$ SURVEY_DATE <chr> "199210", "199210", "199210", "1…
$ OPEN_DATE <chr> "2007-08-31", "2007-08-31", "200…
$ SMALL_AREA <chr> "0", "0", "0", "0", "0", "0", "0…
$ COLLECT_AREA <chr> "該当なし", "該当なし", "該当な…
$ MAIN_CATEGORY <chr> "労働・賃金", "労働・賃金", "労…
$ SUB_CATEGORY <chr> "労働力", "労働力", "労働力", "…
$ OVERALL_TOTAL_NUMBER <chr> "210", "6084", "2520", "3240", "…
$ UPDATED_DATE <chr> "2023-02-28", "2023-02-28", "202…
$ TABULATION_CATEGORY <chr> "平成4年就業構造基本調査", "平成…
$ TABULATION_SUB_CATEGORY1 <chr> "全国編", "地域編", "全国編", "…
$ DESCRIPTION <chr> "", "", "", "", "", "", "", "", …
$ TABLE_NAME <chr> "従業上の地位(2),産業(35…
meta1 <- estat_getMetaInfo(appId,"0000140440" )
glimpse(meta1)
List of 7
$ cat01 : tibble [2 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:2] "000" "001"
..$ @name : chr [1:2] "総数" " うち雇用者"
..$ @level: chr [1:2] "1" "1"
$ cat02 : tibble [3 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:3] "000" "001" "002"
..$ @name : chr [1:3] "男女計" " 男" " 女"
..$ @level: chr [1:3] "1" "1" "1"
$ cat03 : tibble [13 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:13] "000" "001" "002" "003" ...
..$ @name : chr [1:13] "総数" " 農林業" " 漁業" " 鉱業" ...
..$ @level: chr [1:13] "1" "1" "1" "1" ...
$ cat04 : tibble [13 × 4] (S3: tbl_df/tbl/data.frame)
..$ @code : chr [1:13] "000" "001" "002" "003" ...
..$ @name : chr [1:13] "総数" " 農林業" " 漁業" " 鉱業" ...
..$ @level: chr [1:13] "1" "1" "1" "1" ...
..$ @unit : chr [1:13] "千人" "千人" "千人" "千人" ...
$ area : tibble [1 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr "00000"
..$ @name : chr "全国"
..$ @level: chr "1"
$ time : tibble [1 × 3] (S3: tbl_df/tbl/data.frame)
..$ @code : chr "1992000000"
..$ @name : chr "1992年"
..$ @level: chr "1"
$ .names: tibble [6 × 2] (S3: tbl_df/tbl/data.frame)
..$ id : chr [1:6] "cat01" "cat02" "cat03" "cat04" ...
..$ name: chr [1:6] "従業上の地位140014" "男女別140001" "産業140015" "産業・1年前140087" ...
dta1_f <- estat_getStatsData(appId ,"0000140440" ,cdCat02 = c("002"))
Fetching record 1-338... (total: 338 records)
glimpse(dta1_f)
Rows: 338
Columns: 15
$ cat01_code <chr> "000", "000", "000", "000", "000", "…
$ 従業上の地位140014 <chr> "総数", "総数", "総数", "総数", "総…
$ cat02_code <chr> "002", "002", "002", "002", "002", "…
$ 男女別140001 <chr> " 女", " 女", " 女", " 女", " …
$ cat03_code <chr> "000", "000", "000", "000", "000", "…
$ 産業140015 <chr> "総数", "総数", "総数", "総数", "総…
$ cat04_code <chr> "000", "001", "002", "003", "004", "…
$ `産業・1年前140087` <chr> "総数", " 農林業", " 漁業", " 鉱…
$ area_code <chr> "00000", "00000", "00000", "00000", …
$ 全国140001 <chr> "全国", "全国", "全国", "全国", "全…
$ time_code <chr> "1992000000", "1992000000", "1992000…
$ `時間軸(年次)` <chr> "1992年", "1992年", "1992年", "1992…
$ unit <chr> "千人", "千人", "千人", "千人", "千…
$ value <dbl> 1412, 12, 2, 0, 42, 338, 2, 39, 457,…
$ annotation <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, …
catalog1 <- estat_getDataCatalog(appId, searchWord = "チョコレート", dataType = c("CSV"))
estat_getStatsList(appId = appId,
searchWord = "",
statsCode = "00200521")
政府統計コード表:https://www.e-stat.go.jp/stat-search/database?page=1
昼夜間人口に基づく発見地自殺死亡率の指標作成 久保田 貴文(多摩大学)
https://www.jstage.jst.go.jp/article/jscstaikai/33/0/33_93/_pdf/-char/ja
Keisuke Takano: https://rpubs.com/k_takano/r_de_geonw_app
学校基本調査の統計表の一覧を取得 estatapiのestat_getStatsList関数を用いて,学校基本調査に該当する統計表の一覧を取得します.統計表の検索方法はいくつかありますが,今回は,政府統計コードを用いた検索を行います.政府統計コードの一覧はこちらのページにあります.学校基本統計調査のコードは「00400001」と書いてありますので,引数statsCodeに,こちらを指定します.引数appIdには先程入力したappIdを,searchWordはブランクを指定してください.
tbl_info_school <- estatapi::estat_getStatsList(appId=appId,
statsCode="00400001",
searchWord="")
tbl_info_school
glimpse(tbl_info_school)
Rows: 7,801
Columns: 26
$ `@id` <chr> "0003061540", "0003015869", "000…
$ STAT_NAME <chr> "学校基本調査", "学校基本調査", …
$ GOV_ORG <chr> "文部科学省", "文部科学省", "文…
$ STATISTICS_NAME <chr> "学校基本調査 平成18年度 初等…
$ TITLE <chr> "総括", "都道府県別 学校数", "…
$ CYCLE <chr> "-", "-", "-", "-", "-", "-", "-…
$ SURVEY_DATE <chr> "0", "0", "200604-200703", "2006…
$ OPEN_DATE <chr> "2007-12-21", "2007-12-07", "200…
$ SMALL_AREA <chr> "0", "0", "0", "0", "0", "0", "0…
$ COLLECT_AREA <chr> "該当なし", "該当なし", "該当な…
$ MAIN_CATEGORY <chr> "教育・文化・スポーツ・生活", "…
$ SUB_CATEGORY <chr> "学校教育", "学校教育", "学校教…
$ OVERALL_TOTAL_NUMBER <chr> "526", "960", "224", "4", "960",…
$ UPDATED_DATE <chr> "2019-10-28", "2012-03-02", "201…
$ TABULATION_CATEGORY <chr> "学校基本調査", "学校基本調査", …
$ TABULATION_SUB_CATEGORY1 <chr> "平成18年度", "平成18年度", …
$ TABULATION_SUB_CATEGORY2 <chr> "初等中等教育機関・専修学校・各…
$ TABULATION_SUB_CATEGORY3 <chr> "学校調査・学校通信教育調査(高…
$ TABULATION_SUB_CATEGORY4 <chr> "総括", "小学校", "小学校", "小…
$ DESCRIPTION <chr> "", "", "", "", "", "", "", "", …
$ TABLE_NAME <chr> "総括", "都道府県別 学校数", "…
$ TABULATION_SUB_CATEGORY5 <chr> NA, NA, NA, NA, NA, NA, NA, NA, …
$ TABLE_SUB_CATEGORY1 <chr> NA, NA, NA, NA, NA, NA, NA, NA, …
$ TABLE_SUB_CATEGORY2 <chr> NA, NA, NA, NA, NA, NA, NA, NA, …
$ TABLE_SUB_CATEGORY3 <chr> NA, NA, NA, NA, NA, NA, NA, NA, …
$ TABLE_CATEGORY <chr> NA, NA, NA, NA, NA, NA, NA, NA, …
今回は例として,2010年の県外進学データを取得します.項目STATISTICS_NAMEに「平成22年」「大学・大学院」,TITLEに「出身高校の所在地県別 入学者数」を含むデータがその候補になりますので,統計表情報からそちらを抽出します.
tbl_info_school_mig_2010 <- tbl_info_school %>%
dplyr::filter(grepl("平成22年",STATISTICS_NAME)&
grepl("大学・大学院",STATISTICS_NAME)&
grepl("出身高校の所在地県別 入学者数",TITLE))
tbl_info_school_mig_2010
mig_2010 <- estatapi::estat_getStatsData(appId=appId,
statsDataId=tbl_info_school_mig_2010$`@id`)
Fetching record 1-9408... (total: 9408 records)
head(mig_2010)
「XX_1」となっている方が大学の所在地に関する変数,「XX_2」は出身高校の所在地に関する変数です.即ち,「XX_1」は着地側,「XX_2」は発地側の位置情報です.変数valueが,都道府県ペア間の県外進学数です.変数「設置者別9」には,大学の設置者及び性別を区別する変数です.都道府県コードに対応する変数は,大学の所在地についてのみ把握できます. 出身高校の所在地の変数「都道府県別2」について,その値を確認すると,「都道府県」が抜けていることがわかります.
unique(mig_2010$都道府県別2)
[1] "計" "北海道" "青森" "岩手" "宮城" "秋田" "山形"
[8] "福島" "茨城" "栃木" "群馬" "埼玉" "千葉" "東京"
[15] "神奈川" "新潟" "富山" "石川" "福井" "山梨" "長野"
[22] "岐阜" "静岡" "愛知" "三重" "滋賀" "京都" "大阪"
[29] "兵庫" "奈良" "和歌山" "鳥取" "島根" "岡山" "広島"
[36] "山口" "徳島" "香川" "愛媛" "高知" "福岡" "佐賀"
[43] "長崎" "熊本" "大分" "宮崎" "鹿児島" "沖縄" "その他"
このままでは分析上扱いにくいので,変数「都道府県別2」に「都道府県」を補ったものを,新たな変数origin_nameとして追加します.
mig_2010_long <- mig_2010 %>%
dplyr::mutate(origin_name=case_when(
#「京都」「大阪」なら「府」を補う
都道府県別2%in%c("京都","大阪") ~ paste0(都道府県別2,"府"),
#「東京」なら「都」を補う
都道府県別2=="東京" ~ "東京都",
#「北海道」「その他」「計」なら何も補わない
都道府県別2%in%c("北海道","その他","計") ~ 都道府県別2,
#上に該当しなければ「県」を補う
TRUE ~ paste0(都道府県別2,"県")
))
着地側の変数「都道府県1」は特に何かを補う必要もなさそうなので,変数名をdestination_nameに変更し,そのままにしておきます.また,変数「設置者別9」を「founder」に変えた上で,発着地名が「その他」「計」「全国」に該当しないレコードのみ残します.
mig_2010_long <- mig_2010_long %>%
#着地側の変数の名前を変更
dplyr::rename(destination_name=都道府県別1) %>%
#設置者を示す変数の名前を変更
dplyr::rename(founder=設置者別9) %>%
#必要な変数のみ残す
dplyr::select(founder,origin_name,destination_name,value) %>%
#発着地名が「その他」「計」「全国」に該当しないレコードのみ残す
dplyr::filter(!(origin_name%in%c("その他","計","全国")|
destination_name%in%c("その他","計","全国")))
head(mig_2010_long)
元データから,都道府県名と都道府県コードの対応表を作ります.都道府県名は変数「都道府県別1」をそのまま用いることができますが,都道府県コードは変数area_codeの先頭2文字を取り出す必要があります.それら変数を作成した上で,都道府県名・都道府県コードの2変数についてデータをユニークにします.
pref_code <- mig_2010 %>%
#必要な変数のみ残す
dplyr::select(都道府県別1,area_code) %>%
#都道府県名pref_nameの値は,都道府県別1の値そのまま
dplyr::mutate(pref_name=都道府県別1,
#都道府県コードpref_codeの値はarea_codeの先頭2文字
pref_code=substr(x=area_code,start=1,stop=2)) %>%
#都道府県名・コードでユニーク化
dplyr::distinct(pref_name,pref_code)
都道府県名をキーに,発地・着地側に都道府県コードを結合します.
mig_2010_long <- mig_2010_long %>%
#発地側に都道府県コードを結合
dplyr::left_join(y=pref_code,by=c("origin_name"="pref_name")) %>%
#都道府県コードの変数名を変更
dplyr::rename(origin=pref_code) %>%
#着地側に都道府県コードを結合
dplyr::left_join(y=pref_code,by=c("destination_name"="pref_name")) %>%
#都道府県コードの変数名を変更
dplyr::rename(destination=pref_code)
最後に,現状縦に並んでいる設立者・性別毎のデータを,横並びに変形します.前者はlong型,後者はwide型とも呼びます.変数founderを基準に,データをwide型へ変換する際は,tidyrのpivot_wider関数を用いて以下のように実行します.Wide型に変換しない変数を引数id_colsで,新たに作られる変数の名前に変数founderの値を用いることを引数names_fromで,wide型に変形される観測値は変数valueから来ることを引数values_fromで明示します.
mig_2010_wide <- mig_2010_long %>%
#Wide型に変換しない変数の指定
tidyr::pivot_wider(id_cols=c(origin_name,destination_name,origin,destination),
#新たな変数名の元になる値が入った変数
names_from=founder,
#Wide型に変換される観測値が入った変数
values_from=value)
head(mig_2010_wide)
変数名が日本語のままだと扱いづらいので,英語で変数名を付け直します.また,進学者総数から男子の進学者数を差し引いたものを,女子の進学者数として変数に追加します.
mig_2010_wide <- mig_2010_wide %>%
#変数名を付け直す
dplyr::rename(total=計,
national=国立,
private=私立,
male=計のうち男) %>%
#女子の進学者数を計算
dplyr::mutate(female=total-male)
上で作成したデータは,発着地ペアについてフロー量が縦に並んでいる形式です.一方,よく見るOD表は,行方向に発地側の地名,列方向に着地側の地名が並んだ正方行列の形のものだと思います.以下では,発着地ペアのデータをOD表の形式に変形する方法を示します. 例として,進学者総数についてOD表を作成します.表の行方向には発地側都道府県名,列方向には着地側都道府県名が並ぶ形にします.この変形には ,上と同様pivot_wider関数が使えます.引数id_colsには行方向のラベルとなる発地側都道府県名origin_name,引数names_fromには変数名となる着地側都道府県名destination_name,引数values_fromには並べ替えられる進学者総数totalを指定します.
mig_2010_total_od <- mig_2010_wide %>%
#データをOD表の形式に変形
tidyr::pivot_wider(id_cols=c(origin_name),
names_from=destination_name,
values_from=total)
head(mig_2010_total_od)
社会・人口統計体系の統計表の一覧を取得
今回重力モデルの説明変数として用いるデータは,社会・人口統計体系(統計でみる都道府県・市区町村のすがた)から取得します.社会・人口統計体系は,各地域の様々な社会・経済属性のうち基礎的なものを,都道府県・市区町村単位で集計したデータで,卒業論文等での利用頻度が高いもののひとつです.社会・人口統計体系は,社会・経済変数の生の値をまとめた基礎データと,それら変数を組み合わせて計算される各種指標をまとめた社会生活統計指標に分類されます. まずは,社会・人口統計体系を政府統計コードの一覧から探します.コードは「00200502」ですので,学校基本調査の場合と同じく,estat_getStatsListを用いて統計表のリストを取得します.
#社会・人口統計体系の統計表の一覧
tbl_info_si <- estatapi::estat_getStatsList(appId=appId,
statsCode="00200502",
searchWord="")
head(tbl_info_si)
統計表のリストを,都道府県データ(項目COLLECT_AREAが「都道府県」を含む)のみに絞ります
tbl_info_si_pref <- tbl_info_si %>%
#項目COLLECT_AREAが「都道府県」を含むレコードに絞る
dplyr::filter(grepl("都道府県",COLLECT_AREA))
head(tbl_info_si_pref)
今回の分析では,基礎データ・社会生活統計指標のそれぞれから,以下の変数を用います.
基礎データ C121101:1人当たり県民所得 社会生活統計指標 #E0610202:大学収容力指数 #E09504:大卒者割合 1人当たり県民所得については,項目STATISTICS_NAMEに「基礎データ」,TITLEに「C」を含む統計表に含まれます.それ以外の変数は,項目STATISTICS_NAMEに「社会生活統計指標」,TITLEに「E」を含む統計表がその候補になりますので,統計表情報からそちらを抽出します.
tbl_info_si_pref_vars <- tbl_info_si_pref %>%
#項目STATISTICS_NAMEに「基礎データ」,TITLEに「C」を含む,もしくは
dplyr::filter((grepl("基礎データ",STATISTICS_NAME)&grepl("C",TITLE))|
#項目STATISTICS_NAMEに「社会生活統計指標」,TITLEに「E」を含む
(grepl("社会生活統計指標",STATISTICS_NAME)&grepl("E",TITLE)))
基礎データCの統計表IDは「0000010103」,社会生活統計指標Eの統計表IDは「0000010205」ですので,それぞれestat_getStatsData関数で統計表を取得します.
#基礎データCの統計表を取得
kiso_c <- estatapi::estat_getStatsData(appId=appId,
statsDataId="0000010103")
Fetching record 1-100000... (total: 319920 records)
Fetching record 100001-200000... (total: 319920 records)
Fetching record 200001-300000... (total: 319920 records)
Fetching record 300001-319920... (total: 319920 records)
#社会生活統計指標Eの統計表を取得
sihyo_e <- estatapi::estat_getStatsData(appId=appId,
statsDataId="0000010205")
Fetching record 1-100000... (total: 102864 records)
Fetching record 100001-102864... (total: 102864 records)
取得された各統計表から,必要なレコードのみを残します.具体的には,統計コードcat01_codeが上で挙げた変数コードに一致し,かつ調査年が「2010年度」に一致するもののみを残します.その上で,それらを行方向に結合します.
kiso_c_vars <- kiso_c %>%
#1人当たり県民所得
dplyr::filter(cat01_code=="C121101") %>%
#2010年度の観測値
dplyr::filter(調査年=="2010年度") %>%
#不要な変数を削除
dplyr::select(-`C 経済基盤`)
sihyo_e_vars <- sihyo_e %>%
#大学収容力指数
dplyr::filter(cat01_code=="#E0610202"|
cat01_code=="#E09504") %>%
#2010年度の観測値
dplyr::filter(調査年=="2010年度") %>%
#不要な変数を削除
dplyr::select(-`E 教育`)
#データを行方向に結合
vars <- rbind(kiso_c_vars,sihyo_e_vars)
データを変数毎にwide型に変形します.前もって必要な変数のみ残し,変数area_codeの先頭2文字から都道府県コードを新たな変数として作成します.また,変数コードcat01_codeに基づいて,変形後の変数名を与える変数varnamを作成します.その上で,データをlong型からwide型に変形します.
vars <- vars %>%
#都道府県コード変数を追加
dplyr::mutate(pref_code=substr(x=area_code,start=1,stop=2)) %>%
#必要な変数のみ残す
dplyr::select(cat01_code,pref_code,地域,value) %>%
#変数名を変更
dplyr::rename(pref_name=地域) %>%
#変数コードに応じた変数を作成
dplyr::mutate(varnam=dplyr::case_when(
cat01_code=="C121101" ~ "income",
cat01_code=="#E0610202" ~ "acom_univ",
cat01_code=="#E09504" ~ "univ_rate"
))
vars_wide <- vars %>%
#データをlong型からwide型に変形
tidyr::pivot_wider(id_cols=c(pref_code,pref_name),
names_from=varnam,
values_from=value)
head(vars_wide)
データを結合し,書き出します.
取得元:国土数値情報 国・都道府県の機関データ
#Shapefileを読み込み
pref_office <- sf::read_sf(dsn="P28-13.shp") %>%
#変数P28_003が「12001」(都道府県庁舎)のレコードのみ残す
dplyr::filter(P28_003=="12001") %>%
#都道府県コードの変数を作成
dplyr::mutate(pref_code=substr(P28_001,1,2)) %>%
#都道府県コードの変数だけ残す
dplyr::select(pref_code) %>%
#都道府県コードでソート
dplyr::arrange(pref_code) %>%
#WGS84/UTM54Nに投影変換
sf::st_transform(crs=sf::st_crs(32654))
Error: Cannot open "P28-13.shp"; The file doesn't seem to exist.
都道府県ポリゴン
mapdata: extra map data for a few regions
estatapi は作成されている。statsDataId を得ます。